菜鸟团一周文献推荐(No.11)
写在前面:
不知不觉,我们的「每周文献推荐」栏目已经走过了10期,在这10期两个半月的时间里我们一个为大家推荐了49篇最新生物信息相关文献。不知道其中有没有哪些对你有所启发,欢迎在留言中说说你对这个栏目有没有什么进一步的期待和更好的建议。
同时,欢迎大家阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:Arjuna
一句话评价
第一个针对转录组下游可变剪接分析的Unix命令行工具套件。
文章信息
题目:Matt: Unix tools for alternative splicing analysis
杂志:Bioinformatics
时间:01 January 2019
链接:
https://academic.oup.com/bioinformatics/article-abstract/35/1/130/5053311
figure
文章介绍:
Matt包括大约50个进行可变剪接计算的命令:
(i)简化了重复的数据准备任务;
(ii)提供常规的高质量的分析结果,包括外显子/内含子特征的提取,判别特征检测,motif富集分析和motif RNA图的生成;
(iii)记录每一步分析过程,提高可重复性;
(iv)提供模块化功能,可以快速自定义pipline。
Matt提供了全面的文档和程序应用示例。
Matt基于Perl的核心模块和R的base扩展包构建,安装简单。
Matt网站:http://matt.crg.eu/#AC,包含大量的程序应用示例和命令参数解析。
推荐原因:为转录组下游分析又提供了一条分析路线,文章内容更丰富呢。
供稿人:冰糖
一句话评价
有效提取高通量测序中的核苷酸变异信息
文章信息
题目:Quantification of experimentally induced nucleotide conversions in high-throughput sequencing datasets
杂志:BMC Bioinformatics
时间:20 May 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2849-7
figure
DUNK可以找出错误比对和真正的SNP的流程图:
文章介绍:
高通量测序中,由于错配和SNP的存在会导致核苷酸转换,然而现在一些高通量方法往往需要人工引入核苷酸转换,并通过分析核苷酸转换来进行特定的分析,此时有效的获取人工引入的核苷酸转悠就会很大的提高数据分析的正确性。比如目前人工引入核苷酸转换的实验方法有:BS-seq(bisulfite-sequencing ),通过检测C > T 转换可以识别非甲基化的胞嘧啶;PAR-CLIP(photoactivatable ribonucleoside-enhanced crosslinking and immunoprecipitation ):通过检测T > C转换可以识别蛋白质和RNA的交互作用;SLAMseq:通过检测T > C 转换来识别RNA的代谢情况,等等。
识别核苷酸转换有两个困难:(1)由于Read错误比对到参考基因组上会导致较高的错配率,这会影响精确定量人工引入的核苷酸转换;(2)基因组天然存在SNP,这会增加核苷酸转换的数量。此外,一些特定的高通量方法如QuantSeq(它是用于3‘mRNA的测序)也有特定的问题:由于测序的位置在3’端,因此往往会有部分3’UTR混入Read中,UTR的复杂度要比编码区低,因此会导致更多错配的产生(会比对到多个位点或者错误的位点)。
本文提出一种方法来解决上述问题:DUNK(Digital Unmasking of Nucleotideconversions in k-mers ) 。相对应的,它主要解决上述两个问题,首先提高错误Read的正确比对,其次对SNP进行无偏估计来去除SNP对“核苷酸转换”计数的影响。
供稿人:Christine
一句话评价
卵巢癌分子亚型异质性的临床价值
文章信息
标题:Decoding transcriptomic intra‐tumour heterogeneity to guide personalised medicine in ovarian cancer
杂志:JOURNAL OF PATHOLOGY
时间:30 October 2018
链接:
https://onlinelibrary.wiley.com/doi/full/10.1002/path.5191
figure
文章介绍:
癌症非常复杂,人们总希望给它划分为明确的亚型以帮助治疗,分型方法的研究也因此层出不穷,然而由于肿瘤内异质性的存在,一些样本并不能明确地属于某种亚型。利用这一特性,本文提出了基于分子亚型的异质性评估(MASH),基本原理是:用转录组数据建立亚型分类器,用分类器预测时会给出的样本属于每种亚型的得分,作者假设每个样本存在一个主要的亚型,次要亚型的得分之和即为分子亚型异质性。在卵巢癌数据库CSIOVDB的3431个样本中,作者发现大约30%的卵巢癌由2种及以上亚型组成,亚型异质性与临床结果相关,预后不良亚型(Mes或Stem-A)的比例影响生存、转移和复发。在另外几个独立数据集中也得到类似的趋势。最后,作者用自己的样本结合NanoString技术,说明了分子亚型异质性具有良好的临床适用性。
供稿人:lakeseafly
一句话评价:基因渗透分析助力解密小麦适应性进化方式
文章信息
题目:Exome sequencing highlights the role of wild-relative introgression in shaping the adaptive landscape of the wheat genome
杂志:Nature Genetics
时间:May 2019
链接:
https://www.nature.com/articles/s41588-019-0382-2\
Figure
通过基因渐渗,选择压力分析来展示小麦基因对环境的适应性的分布
文章介绍:
文章摘要
基因渐渗,通过减少了有害的等位基因,来改善对环境的适应性。基因渐渗是遗传多样性的潜在的重要来源。但是在此研究之前,渐渗在全球传播中对小麦的适应性进化和改良的贡献仍然未知。这里研究者对890种不同的六倍体和四倍体小麦进行了有针对性的重新测序,以鉴定野生相对基因渗入。在具有主要农艺基因的区域中,基因渗入增加了基因组的多样性,并且贡献等位基因解释了大部分表型变异。这些结果表明,来自野生近缘种的历史基因流动对现代面包小麦的适应性多样性做出了重大贡献。
推荐原因
这篇文章是今年第二篇关于农作物的基因渗透的高分文章,(第一篇是302株大豆的基因渗透,发在了Genome Biology上)。先简单说说为什么这篇可以发得更好,首先这篇的数据更加大规模,故事讲得更加完整,很好的将基因渗透分析与基因和表型关联分析,选择压力等热门的群体遗传分析相结合。基因渗透分析目前在作物群体遗传方面,还是比较新颖(并没有太多文章),随着一系列的高分文章发出,这方面的分析必将会成为未来群体遗传分析的一个热点之一(我也打算好好学习这方面的知识,在我周三的专题了,目前已经推出了两篇相关的分析笔记,后面会陆续有更多的相关学习)。因此,该文章很值得做群体分析这方面的高级玩家,好好研究一番,快速攻占科研的高地。最后,给对该文章感兴趣的小伙伴,助攻上由一作作者写的详尽解读推文:https://mp.weixin.qq.com/s/ZCWVPj8QLok1-u9aklMZEA
供稿人:鲍志炜
一句话评价
通过 COSMIC 数据库检测测序样本中的融合突变。
文章信息
题目:GeneFuse: detection and visualization of target gene fusions from DNA sequencing data
杂志:International Journal of Biological Sciences
时间:22 May 2018
链接:https://doi.org/10.7150/ijbs.24626
figure
文章介绍
一般检测基因融合的软件都需要先用 BWA 或 Bowtie 之类的比对软件先将 reads 比对到参考基因组。这些基于比对的基因融合检测软件可以扫描所有可能的基因融合,并能够检测新的基因融合。然而,这些基于比对的基因融合检测软件也有缺点,因为它们的检测结果严重依赖于序列比对的结果。如果比对软件无法检测到准确的剪接和嵌合体,则基于序列比对的融合检测算法可能无法正常工作。同时,对于包含有融合基因的 reads,通常会发生错位。另一方面,对于不包含任何融合基因的正常 reads,剪接和嵌合体也经常发生。这些因素可以影响这些算法的敏感性和特异性。导致在重复区域经常会出现误报,当他们处理来自具有低肿瘤 DNA 组成的样品(如 cfDNA)的数据时,也很可能产生假阴性。
所以对于临床应用,与其寻找具有未知意义和较大不确定性的大量基因融合,不如直接寻找已知的对临床治疗有反应的基因融合。海普洛斯开发的 GeneFuse 软件就是以这样的需求诞生的,高灵敏度和特异性地根据 COSMIC 数据库来检测有临床意义的基因融合。对于每个检测到的融合,GeneFuse 会报告其基因组坐标,推断蛋白质形式和支持的reads。检测结果还可以通过 HTML 进一步可视化。
GitHub 地址:https://github.com/OpenGene/GeneFuse
供稿人:Forest_Lee
一句话评价
探讨CAVIN1的表达及其作为GBM预后标志物的价值。
文章信息
题目:Integrated profiling identifies caveolae‐associated protein 1 as a prognostic biomarker of malignancy in glioblastoma patients
杂志:CNS Neuroscience & Therapeutics
时间:10 September 2018
链接:
https://onlinelibrary.wiley.com/doi/full/10.1111/cns.13072
figure
文章介绍:
胶质母细胞瘤(GBM)是中枢神经系统最常见的原发性恶性肿瘤,是脑内最致命的肿瘤。
CAVIN1是一个重要的空泡编码基因,其在多种癌症(如前列腺癌、结直肠癌)中发挥着不同的作用,与较差的预后有关,CAVIN1在胶质瘤中研究较少。
本研究试图利用组织标本和TCGA、CCGA、GEO等数据库,探讨CAVIN1的表达及其作为胶质瘤预后标志物的价值。
生存分析采用Kaplan‐Meier曲线和log‐rank检验。利用ROC曲线评价CAVIN1在胶质瘤进展期恶性肿瘤中的预测作用。使用GO、GSEA、GSVA来解释CAVIN1在GBM中的作用。